🔥 Почему определённые схемы инициализации весов помогают бороться с затухающими градиентамиПодходы вроде Xavier (Glorot) и Ге специально подбирают начальные веса так

Библиотека собеса по Data Science | вопросы с собеседований

🔥 Почему определённые схемы инициализации весов помогают бороться с затухающими градиентами

Подходы вроде Xavier (Glorot) и Ге специально подбирают начальные веса так, чтобы сохранять дисперсию активаций и градиентов на разумном уровне при прохождении данных через слои.

➡️ Xavier (Glorot) инициализация рассчитана на линейные или сигмоидные активации. Она балансирует дисперсию между входами и выходами слоя.

➡️ Ге инициализация подходит для ReLU-подобных функций и учитывает, что ReLU «отбрасывает» половину входов (всё, что меньше нуля), поэтому она использует чуть большую дисперсию.

Идея в том, чтобы избежать слишком маленьких или больших значений активаций, которые приводят к затухающим или взрывающимся градиентам соответственно. Если веса слишком малы — градиенты быстро обнуляются при обратном распространении. Если слишком велики — градиенты начинают «взрываться».

❗️Если используется нестандартная функция активации или сложная архитектура, стандартные схемы инициализации могут не подойти. Их нужно адаптировать, иначе можно снова столкнуться с затухающими/взрывающимися градиентами.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tg-me.com/us/Библиотека собеса по Data Science | вопросы с собеседований/com.ds_interview_lib/933

821 viewsedited Apr 16 at 17:51

tg-me.com/ds_interview_lib/933

Create: 2025-04-16
Last Update: 2025-07-03 16:29:48

Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

🔥 Почему определённые схемы инициализации весов помогают бороться с затухающими градиентамиПодходы вроде Xavier (Glorot) и Ге специально подбирают начальные веса так